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Verfahren zur Verbesserung der Sprechererkennung 

Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprecher- 
erkennung bei tfbertragung des zu erkennenden Sprachsignals uber 
eine Ubertragungsstreclce mit linearen Verzerrungen zu dem Erken- 
nungsgerat . 

Um mit einem automatischen rechnergesteuerten Sprechererkennungs- 
system eine hohe Erkennungsrate zu erzielen, ist es notwendig, die 
zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner imraer 
in gleichbleibender Qualitat zur Verfugung zu stellen. Bei Sprach- 
ilbertragung beispielsweise per Telefon ist jedoch bei Jeder Tele- 
fonverbindung die unterschiedliche Ubertragungsfunktion der Strecke 
Mikrofonkapsel - Telef onleitung - Telef onadapter zwischen dem ei- 
gentlichen Sprachsignal und dem Signal, das dem Rechner zugefuhrt 
v/ird, unvermeidlich zwischengeschaltet. Der EinfluS dieser jeweils 
wechselnden Ubertragungsfunktion kann so groB sein, da6 eine zuver- 
lassige Sprechererkennung sehr erschwert bzw. unmoglich gemacht 
wird. 
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Aufgabe der Erfindung ist es, ein Verfahren zur Verbesserung 

der Sprechererkennung anzugeben, bei dem Auswirkungen durch die linea 

ren Verzerrungen des Sprachsignals auf der ubertragungsstrecke 

veitgehend vermieden werden. Diese Aufgabe lost die Erfindung 

durch die im Kennzeichen des Hauptanspruchs angegebenen Merk- 

male. Das vorbestimmte Signal kann ein festgelegter Text, also 

ein Testsatz sein, der vor Beginn der eigentlichen Ubertragung 

von dem zu erkennenden Sprecher besprochen wird. Eine andere 

Moglichkcit besteht darin, dem Mikrofon auf der Sprecherseite ein 

Sinussignal in Form eines von einem Lautsprecher erzeugten Tones 

mit konstanter Amplitude und einer sich stetig von der einen bis QO 

ail 

zur andcrcn Grenzfrequenz der ubertragungsstrecke andemden Fre- C/J 
quenz zicufUhren . DafUr ist zwar ein gewisser, wenn auch ge- ^ 
ringer apparativer Auf wand notwendig, oedoch werden mit dieser 
Methodc die Eigenschaften der tibertragungsstrecke objektiver er- 

faot. rn 

o 

Die Korrcktur des Ubertragenen Sprachsignals kann dadurch erfol- O 
gen, daO oit den Werten der im Erkennungsgerat bestimmten (Jber- 
tragungefunktion ein elektronisch einstellbares Filter entspre- 
chend cingcstellt wird, oder daB bei einem Erkennungsgerat, das 
mittolc cinor Filterbank das Sprachsignal in die einzelnen Spek- 
tralanteile zerlegt, die Ausgange der Filterbank entsprechend ge- 
wichtet werden. Die Korrektur durch die Ubertragungsfunktion kann 
jedoch auch implizit .erfolgen, indem das Fourier-Spektrum des uber- 
tragenen Sprachsignals mit dem Quotienten aus dem Fourier-Spektrum 
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des gespeicherten vorbestimmten Signals und des Ubertragenen vor- 
bestimmten Signals multipliziert wird # 

Das Sprachsignal des zu erkennenden Sprechers sei durch seine 
Amplituden-Zeit-Funktion charakterlsiert. Wird dieses Sprach- 
signal tiber eine Telefonleitung vibertragen, so erhalt man als 
Ausgangs signal beim Erkennungsgerat eine Funktion, die durch 
die Ubertragungseigenschaften des Telefontlbertragungsweges ver- 
andert worden ist. Um zu zeigen, wie aus dem Ausgangs signal das 
originale Sprachsignal naherungsweise wiedergewonnen werden kann, 
werden beide Signale f our ier trans formiert, so dafl sich folgende 
Beziehung zwischen beiden Signal en ergibt: 

F 1T (w) = F 1 (w) • (w) 

Die unbekannte Obertragungsfunktion A«p (w) ist dann 
, F 1T (w) 

At (w) = 

1 F 1 (w). 

Darin ist die Fouriertransf ormierte F^ (w) des originalen Sprach- 
signals ebenfalls noch unbekannt. 

In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. des 
sen Eigenschaften gespeichert. Wenn der gleiche Testsatz vom 
gleichen Sprecher noch einraal gesprochen wird, so ist er f inner- 
halb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers 
dem originalen Testsatz sehr ahnlich. Venn also der noch einmal 
gesprochene Testsatz im Erkennungssystem mit dem originalen Test- 
satz verglichen vird, kann daraus also die unbekannte Ubertragungs 
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funktion A<p (w) naherungsweise bestimmt werden; 

(w) ^ F2 2T (V) 
F 2 (w) 

Darin ist F 2 2T (w) die Fouriertransformierte des noch einmal 
gesprochenen und tlbertragenen Testsatzes und F 2 (w) die Fourier- 
transformierte des gespeicherten Testsatzes ist. 

Mit der somit zumindest nSherungsweise bestimmten Ubertragungs- 
"funktion kann nun in bekannter Veise die Inversf ilterung des zu 
erkennenden Sprachsignals im Rechner vorgenommen werden, um den 
EinfluB der Telef onstrecke auf die Sicherheit der Sprechererken- 
nung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsi- 
gnals untersucht wird, kann die Obertragungsfunktion (w) 
gleichsam implizit berUcksichtigt werden, um aus dem Spektrum 
F 1T (w) das originale Sprachsignal (w) zu rekbnstruieren: 

. F t (v) _ F 1T M , 

(w) rj; 

o 

F 1 Cw; = _jt . f 21 (w) t~ 

F 2 2T (w) 

Eine andere Moglichkeit besteht darin, da!} nicht ein Testsatz, 
sondern ein Sinussignal konstanter Amplitude mit variabler Fre- 
quenz Uber die Telefonleitung geschickt wird. Die dafilr notwendige 
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Anordnung kann beispielsweise bus airier. Sagezahngenerator , einem 
Sinusgenerator, einem Verstarkerbaustein und einem kleinen Laut- 
sprecher bestehen. Der Sagezahngenerator steuert die Frequenz 
des Sinusgenerators vorzugsweise linear Uber den Ubertragungsbe- 
reich von etwa 100 Hz bis 5 Khz. Diese Sinusspannung wird uber 
den Verstarker einem Miniaturlautsprecher zugefuhrt, der direkt 
vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung 
von integrierten Schaltkreisen und einem Miniaturlautsprecher 
lafit sich diese Anordnung in der GroBe einer Telefonkapsel aufbau- 
en, die vor Jeder Ubertragung eines zu erkennenden Sprachsignals 
vor die Telef onmikrof onkapsel gehalten wird. Auf der Empfanger- 
seite braucht dann nur noch von dem empfangenen Signal eine Spek- 
tralanalyse gemacht zu werden, urn die Ubertragungsfunktion zu er- 
mitteln und damit die Sprechererkennung nahezu unabhangig von dem 
Frequcnzgang der Telef onleitung durchzufUbren. 
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Patentanspriiche : 



Q^)verfahren zur Verbesserung der Sprechererkennung bei Ubertragung 
des zu erkennenden Sprachsignals tfber eine ubertragungsstrecke 
mit linearen Verzerrungen zu dem Erkennungsgerat , dadurch ge- 
kennzeichnet, daB vor der Ubertragung des Sprachsignals uber 
die ubertragungsstrecke ein vorbestimmtes Signal iibertragen wird, 
daB in dem Erkennungsgerat das vorbestimmte Signal bzw. dessen 
charakteristischen Merkmale gespeichert sind und mit dem bzw. 
denen des Ubertragenen vorbestimmten Signals verglichen werden, 
und daB aus dem Vergleich eine ubertragungsfunktion bestimmt 
wird, mit der das folgende ubertragene, zu erkennende Sprach- 
signal vor der Erkennung korrigiert wird. 
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2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB das 
vorbestimmte Signal ein festgelegter Text ist. 

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet 3 daG das vor- 
bestimmte Signal ein Sinussignal mit konstanter Amplitude und 
einer sich stetig von der einen bis • zur anderen Grenzf requenz 
der ubertragungsstrecke andernde Frequenz ist. 

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daB 
das Fourier-Spektrum des ubertragenen Sprachsignals mit dem 
Quotienten aus den Fourier-Spektren des gespeicherten vorbe- 
stimmten Signals und des ubertragnene n vorbestimmten Signals 
multipliziert wird. 
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